#gradiente de política

Contratos Kernel: Acotando la Divergencia entre Entrenamiento e Inferencia

Los contratos kernel acotan la divergencia entre entrenamiento e inferencia, reduciendo sesgos en el gradiente de política en post-entrenamiento de RL.

2026-06-09 · 1 min

OLIVE: Aprendizaje incremental online bajo rango para exoesqueletos adaptativos

OLIVE: aprendizaje incremental de bajo rango para exoesqueletos. Logra 13% más suavidad, 22% menos esfuerzo y mayor estabilidad en terrenos. ¡Descúbrelo!

2026-06-05 · 2 min

Estimaciones de ventaja para gradientes de política Max@K

Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.

2026-06-05 · 1 min

RL basado en resultados guía a transformers a razonar solo con datos adecuados

¿Sabías que los transformers pueden aprender a razonar con solo recompensas finales? Un nuevo estudio revela que los datos simples son la clave.

2026-06-04 · 2 min

Gradiente de Política Autodestilada (SDPG)

Descubre SDPG, un marco de gradiente de política autodestilada que estabiliza el entrenamiento de LLMs mediante autorefuerzo y ventajas de grupo.

2026-06-04 · 2 min

Gradiente de Política para MDP Robustos en Tiempo Continuo

Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.

2026-06-04 · 2 min

Relación señal-ruido no uniforme en REINFORCE

Descubre cómo la relación señal-ruido no uniforme en el estimador REINFORCE causa inestabilidad y colapso durante el entrenamiento en RL.

2026-06-02 · 2 min

d2: Mejora del razonamiento en modelos de difusión con estimación de trayectoria

Descubre d2, un marco de razonamiento para modelos de difusión que mejora el rendimiento en tareas lógicas y matemáticas, superando a RL tradicional.

2026-06-02 · 2 min

Exploración emergente en RL vía reintentos con gradiente de políticas

Descubre cómo ReMax y RePPO logran exploración emergente en RL optimizando políticas mediante reintentos. Resultados en MinAtar y Craftax.

2026-06-02 · 2 min

Colapso Cero: fallo de gradientes de política en recompensas discontinuas

El 'colapso cero' es un fallo crítico en métodos de gradiente de política en subastas. Aprende a evitarlo con estrategias prácticas de inicialización y arquitectura.

2026-06-01 · 2 min

REAL: Aprendizaje por Refuerzo Consciente de Regresión para Juez LLM

REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.

2026-06-01 · 2 min

EchoRL: Aprendizaje por Refuerzo mediante Rollout Echoing

EchoRL identifica EchoClips en rollouts exitosos para proporcionar supervisión auxiliar y mejorar el aprendizaje por refuerzo en LLMs, superando la degeneración de ventajas.

2026-06-01 · 1 min